讲 Harness 怎么设计之前 (。・ω・。)
? ? ? !
Agent 为什么会失败
先搞清楚问题,再设计解决方案 (`・ω・´)
Anthropic
工程师团队总结 (`・ω・´)
三种典型失败模式 (。・ω・。)
① 一步到位
One-shotting
② 复制传播
Spreading bad patterns
③ 提前收工
Premature completion
失败模式 ①
试图一步到位
一个会话 功能 A 功能 B 功能 C 功能 D 功能 E 功能 F 所有任务
Agent 倾向于在一个会话里把所有功能都做完 (`・ω・´)
会发生什么? (。ŏ_ŏ)
一个会话做全部 FULL ! 上下文窗口 耗 尽 没有文档的 半成品代码 ? ? 下个会话 只能猜 ? 一条链式反应 → 步步崩塌
最终结果 (。・ω・。)
上下文窗口耗尽
信息溢出,无法继续理解任务 (´;ω;`)
严重
没有文档的半成品
代码写了一半,没人知道意图 (。ŏ_ŏ)
下一轮疯狂猜测
新会话启动,Agent 只能猜之前发生了什么 (`・ω・´)
失败模式 ① 一句话总结 (。・ω・。)
想做的事 A + B + C + D + E… 上下文窗口 上限 ! ? ? ? 半成品 + 无文档
一步到位 一步崩盘